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摘要 : [目的 /意义 ] 研 究 前 沿 的 准确 判断 是 国家 宏观 层面 的 战略 需求 ,文献 计量 学 作为 一 种 定量 研究 方法 
广泛 应 用 于 科学 主题 探测 和 研究 前 沿 识别 中 。[ 方 法“ 过程] 梳理 研究 前 沿 主 题 探 测 的 发 展 历程 和 方法 模型 , 引 
入 全 域 微观 模型 的 概念 ,详细 介绍 SciVal 模块 采用 的 主题 创建 方法 ,包括 直接 引用 文献 聚 类 、 关 键 词 主题 命名 
和 研究 前 沿 踪 选 的 主题 显著 性 算法 ,并 对 SciVal 创建 的 9.6 万 个 主题 和 遗 选 出 的 前 1% 的 研究 前 沿 主 题 的 特征 
进行 实证 分 析 。[ 结果 /结论 ] 全 域 微观 模型 可 以 同时 一 次 识别 整个 科学 领域 的 所 有 主题 ,但 不 同学 科 在 研究 前 
沿 上 表现 存在 差异 ,不 能 把 主题 显著 性 简单 等 同 为 重要 性 ;主题 论文 数量 与 主题 排名 之 间 存 在 中 度 相关 性 ; 自 
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一 个 学 科 领 域 的 研究 前 沿 是 最 能 代表 该 学 科 的 发 。” 述 ? 研究 前 沿 具有 哪些 特征 ?如何 有 效 解读 和 展现 研 
RÈR 制约 该 学 科 当 前 发 展 的 重大 关键 性 问题 。 从 。” 究 前 沿 ? 近年 来 ,基于 整个 科学 领域 所 有 文献 直接 引 
均 济 层面 的 成 略 需求 上 看 ,研究 前 沿 的 准确 判断 会 影 。 用 关系 的 全 域 微观 ( Global -micro) 模型 被 引入 并 应 用 
响 三 个 国家 科学 ,技术 和 创新 发 展 的 政策 导向 。 日 本 、 ”于 主题 创建 和 前 沿 识别 研究 中 ,2017 年 10 月 ,SciVal 
罗 照 ,美国 和 加 拿 大 等 为 了 成 为 全 球 科学 技术 的 领导 ”采纳 此 模型 推出 了 主题 显著 性 模块 ,为 上 述 问题 提出 
者 中 保持 其 科技 强国 的 地 位 ,从 2006 年 起 就 开始 将 研 。 了 一 种 新 的 解决 方案 。 

完 送 沿 作为 首要 研究 课题 ,成 立 面向 他 新 前 沿 的 研究 m 

栅 酌 和 专项 基金 ,支持 前 沿 性 研究 "。 为 了 加 快 实施 研究 前 演 二 题 探测 综述 
国家 的 创新 驱动 发 展 战略 ,我 国 国务 院 2016 年 5 月 印 科学 主题 探测 和 研究 前 沿 的 识别 始终 吸引 着 科学 
发 的 (国家 创新 驱动 发 展 战略 纲要 ) 中 ,进一步 指出 要 家 的 兴趣 。 早 在 1955 年 ,加 菲尔德 就 在 广为人知 的 
“加 强 面向 国家 战略 需求 的 基础 前 沿 和 高 技术 研究 ” 《科学 引文 索引 》 中 指出 ,科学 文献 的 引用 链接 分 析 可 
和 “面向 科学 前 沿 加 强 原 始 创新 "等 任务 ,从 国家 战略 ”以 跟踪 新 兴 恩 想 和 发 现 科 学 的 新 兴 领 域 ”。1965 年 ， 
高 度 指明 了 科学 前 沿 研究 的 重要 性 与 紧迫 性 。 文 献计 。 普 赖 斯 利用 大 量 的 引文 数据 定义 了 他 所 描述 的 “科学 
量 学 作为 一 种 定量 研究 方法 广泛 用 于 科学 主题 探测 和 研究 前 沿 ”, 即 某 些 卓越 科学 家 在 最 前 沿 领 域 进行 的 领 
研究 前 沿 识别 中 。 主 题 探测 和 前 沿 识别 面临 诸多 问 。” 先 研究 ,并 从 出 版 物 的 密度 以 及 不 同时 期 的 活跃 度 对 
题 ,例如 ,科学 中 有 多 少 个 主题 ? 所 有 主题 应 该 在 整个 研究 前 沿 进行 了 测度 "。1970 年 ,社会 学 家 库 恩 明确 
科学 领域 被 一 次 识别 ,还 是 可 以 按照 特定 需要 只 在 比 ” 提 到 可 以 用 加 菲尔德 的 引文 数据 来 识别 研究 社区 和 描 
较 小 的 领域 上 被 识别 ? 哪 种 方法 提供 最 精准 的 主题 描 。” 绘 科学 革命 的 范式 "。 
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在 前 人 的 理论 基础 上 ,不 同时 期 的 文献 计量 学 家 
采用 直接 引用 (Direct Citation, DC) , 22:8 5| ( Co-Citia- 
tion, CC) 和 文献 耦合 ( Bibliographic Coupling, BC)3 种 
文献 引用 关系 ( 见 表 1 ) ,基于 不 同 的 数据 源 .文献 规模 
和 聚 类 算法 ,开展 了 基于 引文 模型 方法 的 探索 和 实证 
研究 ,从 一 个 侧面 反映 了 科学 图 谱 理 论 、 数 据 可 视 化 技 
术 和 计算 机 信息 处 理 能 力 的 演变 过 程 。 作 为 ISI 的 创 


始 人 ,尽管 加 菲尔德 早 在 1964 年 就 提出 直接 引用 分 析 
可 以 用 于 构建 发 现 科学 突破 的 历史 图 谱 ” ,但 由 于 直 
接 引 用 会 产生 大 量 的 计算 需求 , 受 早期 计算 处 理 能 
的 限制 并 没有 得 到 广泛 使 用 。1965 年 , 凯 斯 勒 分 析 了 
《物理 学 评论 》F 334 篇 论文 的 文献 耦合 关系 ,这 无 疑 
是 当时 最 大 规模 的 文献 聚 类 研究 ” 。 


表 1 标志 性 研究 成 果 及 其 采用 的 方法 模型 


作者 /产品 发 表 时间 ( 年 ) 数据 来 源 文献 数量 (条 ) 引用 关系 ROSTER 
Kessler 1965 Physical Review 312 BC Single-link 
Small & Griffith 1974 ISI 1 832 CC Single-link 
Small 1999 ISI 164 612 CC Single-link 
ESI Research Fronts 2001 ISI * CC Single-link 
Klavans & Boyack 2006 ISI 731 289 CC/BC VxOrd 
z Boyack 2009 ISI 997 775 BC VxOrd 
Klavans & Boyack 2010 Scopus 2 080 000 CC DrL/OpenOrd 
Waltman & van Eck 2012 ISI 10 200 000 DC Smart Local Moving 
Boyack & Klavans 2014 Scopus 20 431 588 DC Smart Local Moving 
SciVal ToP in Science 2017 Scopus - 70 000 000 DC VOS 


一 个 广 为 使 用 的 研究 前 沿 探测 模型 是 1974 年 
I 首席 科学 家 斯 莫 和 格 里 菲 斯 提出 的 ,他 们 基于 
ISIN 1 832 篇 高 被 引 论文 的 共 被 引 分 析 和 Single link 
聚 净 算 法 ,展现 了 科学 的 完整 结构 图 谱 ”, 应 用 于 科学 
新 兴 领 域 的 跟踪 和 预测 研究 中 ” ,并 一 直 持续 使 用 至 
Ax 1974 年 到 2010 年 ,从 斯 莫 到 克拉 万 斯 和 博雅 
范 : 尽 管 文献 规模 从 千 篇 增 长 到 百 万 级 ” , 聚 类 算法 从 
IRBE] VxOrd 和 DrL/OpenOrd' ,但 是 共 被 引 分 
PER ISI 数据 库 的 组 合 几乎 没有 变化 , 绝 大 多 数 的 研究 
者 绷 过 限定 学 科 、 期 刊 或 者 术语 在 局 域 数据 集合 上 创 
建文 献 聚 类 ,实现 特定 研究 的 前 沿 主题 探测 和 识别 。 
2001 Œ ESI 采用 共 被 引 分 析 对 Web of Science 的 高 被 
引 论文 聚 类 ,一 次 性 识别 并 动态 生成 22 个 学 科 领 域 的 
近 万 个 研究 前 沿 ,国内 学 者 基于 ESI 前 沿 主题 的 数据 
进一步 开展 了 纳米 前 沿 领 域 图 谱 "" 生物 科学 前 沿 演 
进 时 序 '” 、 量 子 失 协 领域 关键 研究 路 径 ” 等 实证 分 
析 。 


近年 来 研究 前 沿 探测 的 挑战 是 如 何 精确 地 构建 整 
个 科学 领域 上 更 加 精细 的 主题 识别 模型 框架 。 继 共 被 
引 分 析 被 广泛 应 用 后 ,克拉 万 斯 和 博雅 克 在 2009 年 和 
2010 年 分 别 在 ISI" 和 Scopus. 的 百 万 级 文献 规模 


文 级 分 类 体系 的 新 方法 “ ,他 们 证 明基 于 直接 引用 和 
Smart Local Moving 聚 类 算法 可 以 将 千 万 级 的 IST 论文 
精确 划分 为 不 同 的 主题 ,同时 这 种 方法 简单 透明 ,对 计 
算 设备 的 性 能 要 求 不 高 。2014 年 ,博雅 克 和 克拉 万 其 
采用 沃 特 曼 等 的 方法 处 理 了 超过 2 000 万 的 Scopus XX 
献 数 据 ,之 后 两 位 研究 者 比较 和 评估 基于 3 种 数据 
引用 类 型 在 构建 研究 主题 科学 图 谱 的 效果 ,发 现 直接 
引用 要 比 文献 耦合 或 共 被 引 分 析 能 够 更 精确 地 绘制 微 
观 研究 问题 层级 的 知识 分 类 体系 ,更 好 地 发 现 新 兴 交 
又 学 科 , 理解 整个 科学 领域 的 发 展 趋势 和 演化 动 
JI 9s 

研究 前 沿 探测 包括 主题 创建 和 前 沿 遵 选 两 个 阶 
Et, 2017 年 10 月 , 爱 斯 维尔 SciVal 在 主题 创建 过 程 中 
采纳 全 域 微观 模型 ,对 Scopus 中 从 1996 年 到 2016 年 
以 来 所 有 科学 领域 的 7 000 万 论文 和 参考 文献 进行 聚 
类 ,识别 形成 近 9.6 万 个 研究 主题 。 研 究 表明 ,研究 前 
沿 最 普遍 的 特征 是 高 关注 度 和 新 颖 性 “| ,如 ESI 研究 
前 沿用 高 被 引 作为 高 关注 度 的 计算 依据 ,而 《42017 研 
究 前 沿 》 报 告 则 按照 核心 论文 出 版 年 排序 , 找 出 “最 年 
轻 ” 的 研究 前 沿用 于 深入 的 解读 分 析 ”” 。 与 之 不 同 的 
是 ,SciVal 基于 近 2 年 论文 的 引用 、 浏 览 和 期 刊 质 量 指 


上 ,尝试 采用 文献 耦合 和 共 被 引 分 析 与 不 同 的 聚 类 算 
法 的 组 配 ,2011 年 又 提出 全 域 微 观 模型 的 概念 并 不 断 
3$ , 2012 年 ,荷兰 莱 顿 大 学 的 沃 特 曼 和 凡 埃 克 提 
了 第 一 个 基于 直接 引用 模型 构建 整个 科学 领域 的 论 


标 ,综合 计算 每 个 主题 的 显著 性 百 分 位 数 ,可 以 看 到 ， 
显著 性 百 分 位 数 具有 高 关注 度 和 新 家 性 两 个 特征 , 因 
此 ,利用 SciVal 的 主题 显著 性 数据 六 选 出 位 于 所 有 学 
科 领 域 上 最 大 、 最 热 的 研究 前 治 并 验证 其 效果 是 本 文 


| | | ChinaXiv 合 作 期 十 
Ep, GA, 高 晓 应 ,等 . 基于 全 域 微 观 模型 的 研究 前 沿 主题 探测 和 特征 分 析 []]. A HR ED DUIS E15) 78 站 
82. 

研究 的 主要 目的 。 篇 到 几 百 篇 不 等 。 


本 研究 第 二 部 分 介绍 全 域 微观 模型 概念 ,以 及 
SciVal 应 用 此 模型 中 的 主题 创建 .关键 词 主题 命名 和 
研究 前 沿 闭 选 的 方法 。 第 三 部 分 以 SciVal 平台 的 近 
9.6 万 个 主题 及 前 1% 研究 前 治 为 对 象 ,分 析 学 科 分 布 
特征 ,验证 主题 论文 数量 与 主题 排名 之 间 的 关系 ,如 何 
用 关键 词 描述 主题 ,并 以 石墨 烯 研究 为 例 , 展 示 主 题 演 
变 趋 势 。 最 后 讨论 全 域 微观 模型 的 优势 和 存在 的 问 
题 ,指出 下 一 步 研 究 内 容 。 


2 模型 和 方法 

下 面 介绍 主题 创建 中 采用 的 全 域 微观 概念 模型 、 
直接 引用 主题 聚 类 模型 和 关键 词 主题 命名 方法 ,以 及 
从 创建 的 所 有 主题 中 遂 选 研究 前 沿 的 主题 显著 性 计算 


2 人 的 全 域 微观 概念 模型 


CO 〇 全 域 是 指 从 整个 数据 库 所 有 文献 数据 而 不 是 子 集 


来 丙 建 数据 集合 。 相 比 之 下 ,局 部 模型 是 在 一 个 文献 


E 和 召回 率 上 要 高 ， 
更 但 合 于 描述 和 发 现 那些 不 能 提前 预知 的 突 发 主 
感 芝 。 相 关 的 科学 和 技术 领域 可 能 包括 发 现 的 途径 ， 
如 网 理学 的 新 发 现 可 能 来 自 于 化 学 ,或 者 来 自 计算 机 
科 党 ,或 者 来 自 于 仪器 技术 的 发 展 。 因 此 ,有 必要 产生 
一 (涵盖 尽 可 能 多 的 科学 和 技术 文献 的 模型 。 

在 层次 化 的 科学 分 类 体系 中 ,以 前 的 研究 主要 在 
领域 ,学 科 或 专业 方向 层次 上 聚合 文献 。 领 域 位 于 树 
状 分 类 的 最 顶端 ,其 数量 在 几 个 到 几 十 个 之 间 ,如 ESI 
的 22 个 学 科 领 域 或 者 Scopus 的 27 个 学 科 领 域 ,一 个 
领域 每 年 约 有 几 十 万 条 文献 。 学 科 位 于 领域 的 下 一 
级 ,每 年 的 文献 数量 从 几 百 到 几 千 , 一 般 是 基于 期 刊 聚 
类 ,学 科 经 常 与 Web of Science 或 者 Scopus 的 学 科目 录 
等 同 。 专 业 方 向 级 的 分 析 经 常 基于 来 自 术 语 检索 的 结 
果 产 生 的 文献 样本 。 

主题 由 具有 同样 研究 基础 的 一 组 文章 ,在 研究 问 
题 级 或 者 微观 层 上 聚合 文献 ,处 于 科学 分 类 体系 的 底 
端 。 研 究 问题 是 研究 者 实际 从 事 的 细节 问题 ,例如 , 虽 
然 “ 染 料 敏 化 太阳 能 电池 ”被 视 为 一 个 专业 方向 , 但 
“染料 敏 化 太阳 能 电池 的 反 电极 材料 研究 " 则 是 一 个 
研究 问题 。 主 题 规 模 可 大 可 小 ,每 年 的 文献 数量 从 几 


简单 地 说 ,全 域 微观 模型 是 将 所 有 学 科 领 域 上 的 
文献 聚合 到 研究 问题 级 的 一 种 精细 的 科学 分 类 体系 。 
2.2 主题 聚 类 模型 

主题 创建 包括 用 直接 引用 形成 文献 徐 和 将 文献 簇 
聚 类 成 不 同 主题 两 个 步 又。 直接 引用 文献 篮 创 建 在 概 
念 和 实践 上 都 相对 简单 ,图 1 是 一 个 简化 示意 图 。 当 
处 理 大 规模 文献 集合 时 ,为 减少 计算 资源 ,应 尽 可 能 减 
少 有 关联 的 文献 对 的 数量 ,因此 采用 不 考虑 引用 方向 
的 直接 引用 , 即 只 要 文献 引用 了 j 或 者 j 引用 了 i, 那么 
C; =1 ,否则 C; =0。 
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1 直接 引用 聚 类 模型 示意 


通过 直接 引用 链接 创建 文献 簇 后 ,对 直接 引用 文 
献 簇 采用 沃 特 曼 和 几 埃 克 开 发 的 VOS 方法 进行 聚 类 。 
VOS 算法 使 用 了 模块 性 聚 类 变量 最 大 限度 地 提高 簇 到 
簇 之 间 的 相似 性 的 准确 度 , 即 用 簇 的 相似 性 作为 权重 ， 
越 相似 的 簇 权重 越 高 , 越 低 相 似 的 簇 权重 越 低 ”。 为 
计算 论文 的 关联 度 , 每 个 链接 要 用 施 引 文献 的 参考 文 
献 数 进行 标准 化 ,并 计算 所 有 和 矩阵 的 K50 (修正 余弦 ) 
值 。 同 时 为 了 减少 计算 规模 ,将 每 篇 文章 的 链接 上 限 
设置 为 15( 最 高 K50 值 ) ,然后 将 论文 集 和 过 小 后 的 链 
接 输入 到 VOS 聚 类 编码 中 。V0S 算法 的 实现 可 以 免 
费 获 得 。 

SciVal 依据 直接 引用 关系 创建 的 研究 主题 一 旦 产 
生 后 就 永久 存在 ,每 年 会 产生 少量 新 的 主题 ,后 来 的 文 
献 根 据 引用 关系 增加 到 主题 中 ,最 新 文献 越 多 表明 主 
题 越 新 ,上 日 主题 不 会 消失 ,但 可 能 处 于 休眠 状态 。 
2.3 主题 命名 方法 

通过 上 述 步骤 创建 的 主题 一 般 由 几 十 到 几 千 篇 文 
献 组 成 ,需要 用 计算 机 自动 抽取 关键 词 或 短语 来 命名 
主题 。 主 题 命 名 方法 综合 使 用 了 爱 思 唯 尔 的 指纹 技术 
(Elsevier Fingerprint Technology , EFT ) 和 特殊 短语 , 通 
过 3 步 过 程 来 创建 主题 名 称 : 中 应 用 自然 语言 处 理 技 
术 控 掘 主题 中 论文 的 标题 和 摘要 信息 。@ 用 一 组 词语 
与 所 有 主要 学 科 的 叙 词 表 进 行 匹配 得 到 概念 术语 。 爱 
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思维 尔 集成 了 知 干 个 通用 和 专业 领域 主题 词 表 , 如 医 
学 主题 词 表 MeSH 、 天 文学 主题 词 表 ( Unified Astronomy 
Thesaurus ,UAT) 等 。(3) 每 一 个 文档 基于 道 文档 频率 选 
择 独 特 的 关键 词 ,减少 在 文档 集 的 高 频 词 的 权重 ,并 增 
加 很 少 出 现 单词 的 重要 性 。 按 照 与 最 高 词 频 术 语 的 出 
现 频次 的 比值 ,每 个 关键 词 被 给 出 0 和 1 之 间 的 相关 
性 值 ,相关 性 值 为 1 的 表示 最 频繁 出 现 的 关键 词 。 

在 实际 使 用 中 ,系统 会 自动 给 出 3 个 术语 来 命名 
每 个 主题 。 前 两 个 使 用 EFT 生成 ,一 般 选 择 高 频 词 , 提 


这 里 ,C; 是 主题 ) 中 在 第 n 年 和 nn -1 年 发 表 论 文 的 
引用 量 ,V 是 主题 ) 中 在 第 半年 和 7 -1 年 发 表 论 文 的 
Scopus 浏览 量 ,C5; 是 主题 7 中 在 第 年 发 表 论 文 的 平均 
CiteScore ,其 中 原始 数据 经 过 了 对 数 转 换 , 即 公式 2: 

C,=ln(C,+1),V,=ln(V,+1),CS,=ln(CS,+1) 

公式 (2) 
显著 性 计算 是 用 标准 化 分 数 消除 3 个 指标 之 间 的 
量 纲 差异 ,再 对 每 个 主题 近 两 年 论文 的 引用 数量 、 浏 览 


供 对 主题 在 研究 领域 或 者 专业 方向 高 层次 上 的 描述 。 
第 三 个 选择 关于 此 主题 的 特殊 短语 ,是 对 主题 在 研究 
问题 层次 上 作 更 具体 的 描述 。 例 如 ,一 个 被 命名 为 
“Graphene; Energy storage; Graphene fibers" [f] 3:9 , W 
帘 闻 向 涉及 “石墨 烯 和 能 源 存储 ”, 上 具体 研究 内 容 是 


数量 ,期刊 评价 指数 与 平均 值 的 离散 程度 加 权 求 和 。 
因此 ,显著 性 数值 越 高 ,表示 越 来 越 多 的 研究 者 正在 关 
注 这 个 主题 ,也 说 明 这 个 主题 的 增长 势头 越 猛 。 实 际 
使 用 中 ,SciVal 根据 主题 的 显著 性 数值 排序 ,计算 每 个 
主题 的 百 分 位 数 指标 。 


3 结果 分 析 
3.1 WEBB) 
爱 思维 尔 在 2017 年 10 月 推出 的 新 版 SciVal 中 ， 
用 主题 显著 性 代替 了 原来 的 竞争 力 分析 , 基 于 Scopus 


—nean(V,) ) /stdev( V,) +0. 1149 ( CS, — mean( CS,))/ 


std CS,) 公式 (1) 


数据 库 约 7000 万 条 文献 和 10 亿 个 引用 链接 采用 前 述 
的 模型 方法 进行 主题 聚 类 , 共 得 到 整个 科学 领域 的 近 
9.6 万 个 主题 ,并 给 出 每 个 主题 的 显著 性 百 分 位 数 , 表 
2 列 出 显著 性 百 分 位 数 排 在 前 10 位 的 研究 前 沿 主题 
及 指标 。 


表 2 排名 前 10 位 的 显著 性 主题 及 指标 


m au 论文 数量 “引用 数量 WERE eseon 显著 人 

编号 (篇 ) (次 ) (次 ) 百 分 位 数 

j= T20 Perovskite; Solar cells; methylammonium lead 3 872 33 690 84 002 7.35 100. 000 
2 T63 Molybdenum compounds; Monolayers; dichalcogenides TMDs 3 808 12 739 30 524 5.96 99. 999 
3 T456 Genome; RNA, Guide; effector nucleases 2 904 13 321 22 516 5.28 99. 998 
4 T6 Electrolytic capacitors; Capacitance; asymmetric supercapacitors 4 065 10 557 33 524 4.59 99.997 
5 TO Solar cells; Heterojunctions ; organic photovoltaics 4 564 10 837 22 836 6.02 99. 996 
6 T2050 Sulfur; Electric batteries; lithium polysulfides 1 862 6 699 31 445 6.76 99.995 
7 T1727 Electric batteries; Lithium compounds; batteries SIBs 1 902 7 479 26 383 6.85 99. 994 
8 T3007 Viruses; Infection; ZIKV infections 1 564 11 372 23 321 3.76 99.993 
9 T350 Electrolytic reduction; Electrocatalysts ; non-precious metal 2 5T] 7 908 22 102 6.05 99.992 
10 T403 Immunotherapy; Melanoma; immune ~related adverse 2 290 18 796 9 953 3.81 99.99] 


百 分 位 数 指标 作为 一 种 相对 指标 ,近年 来 在 卓越 
绩效 评价 中 被 广泛 应 用 ”。 实 际 应 用 中 往往 根据 需 
求 选择 合适 的 百 分 位 分 数 作为 阔 值 ,例如 EST 的 高 被 


沿 ” 。 本 研究 拟 从 9.6 万 个 研究 主题 中 遵 选 出 所 有 
学 科 领 域 的 最 新 和 最 热 的 研究 问题 ,然后 再 划分 到 相 
应 的 学 科 领 域 进行 解读 分 析 , 以 展示 当前 科技 前 沿 的 


引 论 文 和 研究 前 沿 都 是 基于 各 学 科 论 文 引用 数量 前 
196 的 阔 值 ,教育 部 学 科 评 估 将 ESI 高 被 引 论文 扩展 到 
前 3% ,《2017 研究 前 沿 》 报 告 则 在 ESI 研究 前 沿 的 基 
础 上 进一步 提取 前 10% 的 最 具 引 文 影响 力 研究 前 
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最 新 进展 。 考 虑 研究 前 沿 的 发 布 需求 和 解读 工作 量 ， 
以 及 应 保证 尽 可 能 涵盖 不 同 的 学 科 领 域 ,经 实验 , 设 定 
主题 显著 性 百 分 位 数 阀 值 为 99% , 即 前 1% 的 主题 为 
研究 前 沿 , 共 得 到 963 个 研究 前 治 主题 ,涵盖 了 除 艺 术 


. Chi 
EFU, EI, BRR, F. 基于 全 域 微观 模型 的 研究 前 沿 主题 探测 和 特征 分 析 [J]. CETTE 
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与 人 文 .兽医 .健康 学 ` 多 学 科 之 外 的 23 个 学 科 领 域 。 
3.2. ”主题 学 科 分 布 

按照 每 个 主题 中 论文 所 属 最 多 的 学 科 的 原则 ,将 
每 个 主题 的 学 科 归 属 映 射 到 Scopus 的 27 个 学 科 类 目 
上 , 表 3 统计 不 同学 科 所 有 主题 和 研究 前 沿 主题 的 数 
E ,研究 前 沿 主题 占 所 有 主题 的 百分比 ,以 及 研究 前 沿 


有 主题 还 是 研究 前 沿 主题 中 的 数量 都 最 高 ,研究 前 沿 
占 比 为 0.85% , 略 低 于 196 的 预期 值 ;@ 化 学 和 材料 科 
学 (标识 x ) ,研究 前 沿 主题 数量 仅 次 于 医学 ,相对 强 
度 分 别 为 0.91 和 0. 67 ,但 研究 前 沿 占 比 显著 高 于 1% 
的 预期 值 ,分 别 为 3.26% 和 4. 14% ;@) 能 源 学 、 化 学 工 
FE .免疫 和 微生物 学 \ 环 境 科 学 、 神 经 系统 科学 、 生 物化 


主题 的 相对 强度 。 相 对 强度 是 学 科研 究 前 沿 数量 与 最 
大 的 学 科研 究 前 沿 数量 之 间 的 比值 ,例如 ,医学 研究 前 
沿 主题 数量 最 多 为 188 个 ,医学 研究 前 沿 主 题 的 相对 
强度 为 1 ,化 学 排 在 第 二 位 为 171 个 , 则 化 学 研究 前 沿 
主题 的 相对 强度 为 0.91。 

X3 d Scopus 的 27 个 学 科 分 类 的 主题 分 布 统计 


dodge. rt MAERA cel ies 
所 有 主题 研究 前 滑 主题 占 所 “研究 前 沿 
P Scopus 学 科 领 域 数量 ”主题 数量 EM 主题 的 
aa p" pt TES X au pF 
2 (篇 ) (个 ) 分 比 (%) 相对 强度 
A 医学 22 039 188 0. 85 1.00 
e m i i 
(O 工程 12 259 75 0.61 0.40 
e 社会 科学 8 995 4 0.04 0.02 
C .uocosx 
= 农业 与 生物 科学 6 888 36 0.52 0.19 
Fa 
@ 计算 机 科学 6 038 25 0.41 0.13 
nim 5 259 71 1.35 0.38 
Y} 
N 化 学 5 247 171 3.26 0.91 
CO 艺术 与 人 文 4 525 0 0.00 0.00 
9? | 
Agde .遗传 学 和 分 子 生物 学 “3 811 67 1.76 0.36 
m mu 
P 材料 科学 3 046 126 4.14 0.67 
Se URB 2.726 18 0. 66 0. 10 
e 数学 2 408 3 0. 12 0.02 
UJ 
人 ”环境 科学 2 136 51 2.39 0.27 
“ 玉 开 学 , 毒 理学 和 制药 学 177 13 0.73 0.07 
(商业 管理 和 会 计 1 376 8 0.58 0.04 
经 济 学 .计量 经 济 学 和 金融 1180 2 0.17 0.01 
心理 学 1 073 3 0.28 0.02 
能 源 学 1 024 33 3.22 0.18 
化 学 工程 947 29 3.06 0. 15 
免疫 和 微生物 学 902 24 2.66 0.13 
兽医 550 0 0.00 0.00 
神经 系统 科学 493 10 2.03 0.05 
护理 学 394 4 1.02 0.02 
牙科 244 1 0.41 0.01 
健康 学 206 0 0.00 0.00 
决策 科学 131 1 0.76 0.01 
多 学 科 99 0 0.00 0.00 


不 同学 科 在 研究 主题 和 研究 前 沿 上 的 表现 存在 较 
大 差异 。 图 2 是 用 学 科研 究 前 沿 主题 的 相对 强度 和 占 
所 有 主题 百分比 两 个 指标 构建 的 学 科 分 析 和 矩阵 。27 
个 学 科 可 以 分 为 4 个 集群 :中 医学 (标识 0) ,无 论 在 所 


学 遗传 学 和 分 子 生物 学 ,物理 学 和 天 文学 7 个 学 科 ( 标 
识 + ) ,研究 前 沿 主题 数量 较 少 ,相对 强度 低 于 0.4, 但 
研究 前 沿 占 比 高 于 1% 的 预期 值 ; 由 包括 工程 .计算 机 
科学 在 内 的 17 个 学 科 ( 标 识 口 ) ,研究 前 沿 主题 数量 和 
占 比 上 都 比较 低 ,特别 是 艺术 和 人 文 兽医、 健康 学 、 
学 科 等 的 研究 前 沿 数量 甚至 为 0。 


x 

4% 材料 科学 
EE Nd Š 
B 化 学 工程 
E 免疫 和 微生物 学 
4i + 
à 环境 科学 
doas) 神经 系统 科学 
ig 
lg 生物 化 学 、 遗 传 学 和 分 子 生物 学 
4] 
E 物理 学 天 文学 
四 196 . 
E 药理 学 ， 毒 理学 和 制药 学 [e] 
pa 。"” 地球 与 行星 科学 g 医学 
a 5 n 工程 

.计算 机 科学 
eu “数学 社会 科学 
61 TT YO E Ae 
0.0 0.1 02 03 04 05 06 07 08 09 1.0 


学 科研 究 前 沿 主题 的 相对 强度 


2 研究 前 沿 主题 的 学 科 分 析 和 矩阵 


3.3 主题 规模 与 排名 关系 

统计 95 769 个 主题 的 论文 数量 (在 2012 -2016 年 
的 5 年 时 间 窗 内 ) ,最 多 的 有 4 574 篇 ,最 少 的 仅 有 1 
篇 ,中 位 数 为 56 篇 。 相 比 而 言 ,963 个 人 研究 前 沿 主 题 的 
论文 数量 ,最 少 的 有 122 篇 ,中 位 数 为 1 119 篇 。 图 3 
是 论文 数量 与 主题 排名 之 间 的 关系 图 (坐标 轴 取 对 数 
值 ) ,论文 数量 与 主题 排名 呈 中 度 正 相关 ( 尼 =0. 692 p 
«0. 000 1) , 即 主题 论文 数量 越 多 ,显著 性 指标 越 高 ， 
主题 越 可 能 排 在 前 列 。 

对 图 3 中 论文 数量 很 少 但 排名 靠 前 的 异常 值 应 特 
别 关注 。 例 如 ,主题 T67927 仅 有 35 篇 文章 , 排 在 第 
984 位 (接近 前 196 的 研究 前 沿 ) , 主题 关键 词 为 诊断 、 
血液 .计算 机 显微镜 。 引 用 主要 来 自 一 篇 高 被 引文 章 ， 
是 美国 癌症 协会 发 布 的 2016 年 癌症 统计 年 报 ” ,被 
引用 4 242 次 (截至 2017 年 10 H 30 日 )。 类 似 文献 一 
般 都 会 被 高 引用 ,但 不 能 认为 是 本 主题 的 核心 论文 。 


79 


Qi xt 


8862 23$ 88 15 期 2018 年 8 月 


ChinaXiv 合 作 期 刊 


在 男 一 个 例子 中 ,主题 T67378 QA 122 篇 文章 , 排 在 
第 440 位 (位 于 前 1% 的 研究 前 沿 ) ,主题 关键 词 为 疾 
病 、 卫 生 服 务 糖尿病, 有 多 篇 高 被 引 论文 ,可 被 认为 是 
本 主题 的 核心 论文 。 这 两 个 例子 表明 对 于 导致 主题 高 
被 引 的 情况 还 需 进 一 步 的 详细 考察 。 


5000 . 


2.000 


1000 
500 


主题 编号 :T67378 
50 论文 数量 : 122 
主题 排名 : 440 4 
主题 编号 :T67927 
论文 数量 :35 
主题 排名 : 984 


主题 论文 数量 (篇 ) 


100 1000 100000 


主题 排名 


图 3 研究 主题 的 论文 数量 与 排名 关系 


10 000 


00609v1 


300 关键 词 主题 命名 

CA 根据 主题 命名 规则 ,前 两 个 术语 是 从 题名 和 摘要 
MOH FH ORC YS ETE GL 9 77 168] Jz CPG A e n] , 9 — 
zzi WW HR TH YS 38 RA E GERI 196 的 
: R 


> 4 石墨 烯 研究 前 沿 主题 描述 


研究 前 沿 主题 的 前 两 个 关键 词 词 频 统计 结果 显示 , 肿 
瘤 、 光 催化 、 石 浴 烯 、 锂 离子 .细胞 凋 亡 、 碳 纳米 管 、 
DNA 水合 物 、 和 蛋白质、 太阳能 电池 、 生 物 燃 料 、 催 化 
剂 能源 管 理 , 水 凝 胶 、. 电 催化 、 宏 基因 组 学 、 纳 米粒 
T .磷酸 盐 的 出 现 频次 排 在 前 列 , 均 在 10 次 以 上 。 这 
些 术语 主要 涉及 医学 化学、 材料 科学 .生命 科学 .能 
源 学 .环境 科学 物理、 工程 等 ,这 也 与 前 述 的 研究 前 
沿 的 学 科 分 布 态 势 一 致 ,描述 了 发 展 势头 迅猛 的 前 
沿 学 科 。 

为 了 验证 系统 自动 给 出 的 关键 词 术语 在 描述 和 命 
名 主题 中 的 效果 ,以 “Graphere” 为 检索 词 查询 全 科学 
领域 所 有 主题 的 关键 词 集合 ,得 到 19 个 位 于 前 1% 的 
与 石墨 烯 相关 的 研究 前 沿 , 分 属于 化 学 .材料 .物理 和 
工程 4 个 学 科 领 域 ,依据 这 3 个 关键 词 初步 命名 主题 。 
经 咨询 石墨 烯 领域 专家 ,认为 多 数 关 键 词 术语 从 宏观 
的 研究 方向 和 微观 内 容 的 独特 性 上 描述 主题 ,可 以 较 
好 地 帮助 专业 人 员 快 速 理解 和 初步 判断 一 个 主题 研究 
的 内 容 是 什么 。 但 是 也 存在 关键 词 不 够 精确 的 现象 ， 
如 主题 T31540 ,其 3 个 关键 词 为 “电解 电容 器 、 石 黑 


Af 面积 比 电容 ” ,专家 认为 术语 “面积 比 电容 "过 于 狭 


守 很 少 使 用 ,这 就 需要 通过 进一步 解读 主题 的 核心 论 
文 ,人 工 给 出 更 精确 的 描述 "石墨 烯 超 级 电容 器 ”。 


os 二 FL 十 


S< 主题 编号 主题 排名 主题 命名 Scopus 学 科目 录 论文 数量 (篇 ) 
T235 48 氧化 石墨 烯 一 般 化 学 2 850 
E T6651 50 石墨 烯 药物 释放 一 般 材料 科学 1 326 
em T1072 71 石墨 烯 的 化 学 气相 沉积 法 合成 一 般 材料 科学 2 167 
-SS T16939 78 能 源 储存 中 的 石墨 烯 纤维 一 般 材料 科学 0 
© T% 79 石墨 烽 等 离子 体 原子 与 分 子 物理 和 光学 2713 
T18168 90 石墨 燃气 凝 胶 一 般 材 料 科学 723 
T6784 95 氧化 石墨 烯 (GO ) 复合 材料 的 光 催 化 性 能 一 般 材料 科学 1317 
T8319 157 石墨 烯 硅 烯 纳米 带 的 电子 输 运 性 质 凝聚 态 物理 学 1 199 
T15753 197 石墨 烯 液 相 剥离 一 般 化 学 717 
T15956 254 石墨 烯 锂 离子 电池 一 般 材料 科学 633 
T17039 287 石墨 烯 吸附 的 拟 二 阶 模型 一 般 化 学 728 
T441 398 锯 此 边缘 石墨 烯 的 电子 输 运 性 质 凝聚 态 物理 学 1 952 
T31540 407 石墨 烯 超级 电容 器 一 般 材 料 科学 374 
T17638 482 石墨 燃气 体 传感器 电子 电气 工程 636 
T3084 548 石墨 烯 热 导 率 的 非 平衡 态 分 子 动力 学 凝聚 态 物 理学 1 119 
119223 604 石墨 燃 薄 膜 太 阳 能 电池 一 般 材料 科学 662 
T2164 759 单 层 与 扭曲 双 层 石墨 烯 性 质 凝聚 态 物 理学 1 277 
Du RS GHI 电子 电气 工程 1134 
TOAS 894 应 变 石墨 燃 凝聚 态 物理 学 640 


3.5 相关 主题 发 展 趋势 比较 :以 石墨 烯 为 例 
研究 前 沿 是 对 1996 - 2016 年 间 的 文献 进行 聚 类 

形成 ,并 将 更 新 的 最 近 论 文 依据 直接 引用 关系 分 配 到 

现 有 主题 中 。 因 此 ,统计 多 个 相关 主题 在 不 同时 间 的 
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论文 分 布 不 仅 可 以 展示 一 个 研究 问题 的 发 展 变化 过 
程 ,而 且 可 以 发 现 某 个 研究 领域 或 研究 方向 上 的 关键 
节点 和 新 兴 趋 势 。 因 此 ,统计 多 个 相关 主题 的 论文 时 
间 分 布 ,不 仅 可 以 展示 一 个 研究 问题 的 发 展 变化 过 程 ， 


Chi 
Jin, XGA, BRA, F. 基于 全 域 微观 模型 的 研究 前 沿 主 题 探测 和 特征 分 析 [ J]. 图 书 情报 工作 ， 
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而 且 可 以 发 现 某 个 研究 领域 或 研究 方向 上 的 关键 节点 

石墨 烯 排名 最 前 的 6 个 前 沿 研 究 在 1996 - 2016 
F 期 间 论 文 发 表 数 量 的 变化 趋势 见 图 5。2004 年 英国 
曼彻斯特 大 学 的 研究 者 通过 简单 方法 剥离 出 单 层 石墨 
烯 ,导致 从 2006 年 开始 石墨 烯 研究 论文 数量 明显 增 
加 ,特别 是 2010 年 诺 贝 尔 物理 学 奖 的 获得 极 大 加 速 了 
石墨 烯 的 研究 ,成 为 当前 最 热门 的 研究 领域 之 一 。 相 
比 之 下 ,氧化 石墨 烯 和 石墨 烯 等 离子 体 两 个 研究 前 沿 
主题 的 论文 数量 近 两 年 保持 在 600 篇 左右 ,但 石墨 烯 
等 离子 体 的 论文 数量 增长 势头 更 猛 ,2013 年 超过 了 石 
墨 烯 合成 ,2015 年 又 超过 了 氧化 石墨 烦 , 成 为 石墨 烯 
领域 当前 最 受 关注 的 研究 主题 。 石 墨 烯 药物 释放 类 论 
英 近 两 年 保持 了 较 高 的 数量 增长 ,2016 年 论文 达到 约 
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燃气 凝 胶 两 个 主题 是 材料 科学 与 能 源 环境 领域 的 跨 学 
种 应 用 ,因此 尽管 论文 数量 不 高 ,但 依然 获得 了 很 高 的 
号 用 性 排名 。 
-m- (bn 
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e 
O 图 5 石墨 烯 研究 前 沿 论文 发 表 的 演变 趋势 
(1996 -2016 年 ) 


4 思考 和 展望 


本 研究 从 理论 和 实证 角度 展示 了 全 域 微 观 模型 在 
创建 识别、 效 选 和 描述 整个 科学 领域 的 研究 前 沿 上 的 
方法 和 过 程 。 很 多 主题 本 身 具 有 监 学 科 特 征 , 例 如 ,将 
石墨 烯 相关 的 研究 主题 中 的 论文 映射 到 Scopus 的 学 
科 分 类 体系 上 ,会 发 现 同 时 覆盖 材料 科学 化 学 ,物理 、 
工程 .化 学 工程 、 能 源 . 生 物化 学 .环境 科学 等 多 个 学 
科 , 这 也 反映 当前 石墨 烯 研究 的 现状 。 随 着 跨 学 科研 
究 越 来 越 成 为 常态 ,人 们 倾向 于 认为 新 兴 前 沿 问题 或 
者 重大 科学 突破 往往 会 产生 在 学 科 的 交叉 和 边缘 地 
tfr, SciVal 推出 的 显著 性 主题 由 于 事先 不 限定 检索 , 容 
易 识别 跨 学 科 主 题 ,这 为 研究 人 员 和 决策 管理 者 探测 
新 兴 研 究 前 沿 \ 制 定 优先 发 展 方向 和 分 配 基 金 项 目 等 


方面 提供 了 一 种 有 效 的 工具 。 

需要 注意 的 是 ,由 于 不 同学 科 本 身 存在 差异 性 , 例 
如 ,计算 机 科学 领域 主题 显著 性 会 明显 低 于 材料 和 医 
学 领域 , 而 社会 科学 和 人 文艺 术 等 软 科学 领域 与 便 科 
学 领域 的 显著 性 更 不 能 直接 比较 。 因 此 , 主题 显著 性 
不 能 简单 等 同 于 重要 性 创新 性 、 新 疾 性 或 者 热点 ,一 
个 在 全 域 中 显著 性 较 低 的 主题 可 能 对 本 领域 仍 是 很 重 
要 的 ,实际 应 用 中 要 根据 不 同 的 识别 目的 - - 破 性 研 
究 还 是 有 技术 应 用 的 潜力 研究 ,是 新 兴 前 沿 还 是 公众 
关注 的 热点 ,引入 更 多 的 数据 源 并 设计 相应 的 六 选 指 
标 和 方法 。 

主题 显著 性 排名 与 主题 论文 数量 的 相关 性 表明 ， 
越 是 位 于 前 列 的 研究 前 沿 主 题 的 论文 数量 越 高 。 相 比 
于 ESI 研究 前 沿 的 高 被 引 论 文 聚 类 ,SciVal 研究 前 沿 
主题 论文 数量 平均 在 千 篇 以 上 ,这 导致 存在 如 何 准 确 
高 效 地 识别 核心 论文 和 解读 主题 的 问题 。 同 时 ,通过 
分 析 多 个 相关 主题 识别 新 兴 主 题 和 发 现 技 术 转 化 的 潜 
力 和 可 能 路 径 , 都 是 值得 深入 探索 的 问题 。 

下 一 步 的 研究 将 基于 已 经 发 布 的 研究 主题 ,从 3 
个 方面 开展 更 多 实证 分 析 :QD 引 入 Altmetrics 指标 , 比 
较 媒 体 关注 与 学 术 影响 力 在 主题 探测 中 的 差异 和 影 
响 ;@) 将 显著 性 主题 用 于 机 构 和 学 科 在 研究 前 沿 上 的 
竞争 力 分 析 评 价 ;@@ 开 展 具 体 人 研究 领域 或 研究 方向 的 
知识 演化 图 谱 和 技术 转化 预测 研究 。 
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Abstract. [ Purpose/significance | Accurate judgment of research fronts is the national strategic macro-level demand, 


and scientometrics is commonly used in the quantitative method of research fronts and topic detection. [ Method/ process | 


Firstly , literature review is focused on topic detection and research fronts ,then concept of the global-micro model and methods 


in topic creation are introduced in detail, including topic cluster with direct citation , name label with keyword, and selection 


methodology of topic prominence. It also analyzes nearly 96,000 topics and the top 196 research fronts created by Scival. 


[ Result/conclusion | The global -micro model can identify all topics of different fields at the same time, but there are differ- 


ences in the research fronts between different subjects, which can not equate topic prominence to the importance of simplici- 


ty. There is a moderate correlation between the number of topic papers and the topic ranking. Automatically extracted key- 


words can be named and described the topic in terms of the subject level and uniqueness. The topic evolution is demonstra- 


ted by the related research fronts of graphene, which can be used to identify key events and emerging trends. 
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